Про отказоустойчивые архитектуры

Дмитрий Масленников, «Т-Банк»

SRE — командная работа

Быть «на телефоне» ("oncall")

Процесс алертирования

  • Алерты настраивает себе сама SRE-команда
  • Алерты получает SRE-команда
  • Алерты подтверждаются
  • Есть механизм эскалирования
  • Есть механизм «ручных» алертов

Первые шаги SRE-команды

  • Определить SLI и SLO
  • Обеспечить автоматический мониторинг SLA
  • Падение SLA — источник задач для SRE

Продакшен встреча

Дневник продакшена

Антипаттерны

  • Самую сложную работу делает самый опытный
  • Специализация

Спасибо!

Вопросы?